82 research outputs found

    Sistema de descripción automática de vídeo para la generación de resúmenes audiovisuales

    Get PDF
    La gran cantidad de herramientas de búsqueda de documentos multimedia en bases de datos y la dificultad de la indexación de este tipo de contenido, hacen necesaria la existencia de sistemas que permitan agilizar el procesado de gran cantidad de datos para su correcto almacenamiento y uso. El sistema de descripción automática de video propuesto en este TFM facilita esta tarea. Partiendo de los sistemas ya existentes, basados en indexación descriptiva y añadiendo una capa más que permite combinar la información obtenida de los frames gracias a los descriptores utilizados. De esta forma, se atribuye al documento datos de mayor nivel sobre la significación, realizando una combinación entre la indexación semántica y descriptiva. Combinando conceptos de procesado de imagen, redes neuronales y procesado de lenguaje neuronal, se ha generado un sistema dividido en tres bloques diferentes. Estos se encargan de la detección de los frames principales a partir de descriptores estadísticos, la descripción de estos a partir de un modelo de captioning (descripción de imagen) basado en redes neuronales, y el procesado de las descripciones mediante el análisis de sus embeddings y el algoritmo LSA (Latent Semantic Analysis). Una vez desarrollado el sistema, se han explorado diferentes conjuntos de parámetros, con el objetivo de buscar el mejor ajuste posible. Por un lado, se han alcanzado valores de recall del 85.9% y 83.13% de precisión para el bloque de selección. Por otro, tras la comparación de diferentes modelos de redes neuronales, se ha obtenido una mejora del 38.76% respecto a los modelos más básicos mediante una red basada en modelos de atención y ajustada mediante SCST (Self Critical Sequence Training). Tras esto, se ajustaron los parámetros correspondientes al generador de resúmenes realizando un estudio de los resultados, ya que no existen bases de datos ni métricas con las que compararlos para obtener una cuantificación objetiva del error obtenido. Finalmente, se analizaron los resúmenes obtenidos para diferentes videos, observando un buen rendimiento general del sistema y destacando la gran variabilidad en el ajuste, provocando que no exista un conjunto de parámetros que permita obtener el mejor rendimiento de forma generalizada, así como la falta de conexión observada entre las frases del resumen debido al único uso del contenido descriptivo de los frames

    Subspace Gaussian Mixture Models for Language Identification and Dysarthric Speech Intelligibility Assessment

    Get PDF
    En esta Tesis se ha investigado la aplicación de técnicas de modelado de subespacios de mezclas de Gaussianas en dos problemas relacionados con las tecnologías del habla, como son la identificación automática de idioma (LID, por sus siglas en inglés) y la evaluación automática de inteligibilidad en el habla de personas con disartria. Una de las técnicas más importantes estudiadas es el análisis factorial conjunto (JFA, por sus siglas en inglés). JFA es, en esencia, un modelo de mezclas de Gaussianas en el que la media de cada componente se expresa como una suma de factores de dimensión reducida, y donde cada factor representa una contribución diferente a la señal de audio. Esta factorización nos permite compensar nuestros modelos frente a contribuciones indeseadas presentes en la señal, como la información de canal. JFA se ha investigado como clasficador y como extractor de parámetros. En esta última aproximación se modela un solo factor que representa todas las contribuciones presentes en la señal. Los puntos en este subespacio se denominan i-Vectors. Así, un i-Vector es un vector de baja dimensión que representa una grabación de audio. Los i-Vectors han resultado ser muy útiles como vector de características para representar señales en diferentes problemas relacionados con el aprendizaje de máquinas. En relación al problema de LID, se han investigado dos sistemas diferentes de acuerdo al tipo de información extraída de la señal. En el primero, la señal se parametriza en vectores acústicos con información espectral a corto plazo. En este caso, observamos mejoras de hasta un 50% con el sistema basado en i-Vectors respecto al sistema que utilizaba JFA como clasificador. Se comprobó que el subespacio de canal del modelo JFA también contenía información del idioma, mientras que con los i-Vectors no se descarta ningún tipo de información, y además, son útiles para mitigar diferencias entre los datos de entrenamiento y de evaluación. En la fase de clasificación, los i-Vectors de cada idioma se modelaron con una distribución Gaussiana en la que la matriz de covarianza era común para todos. Este método es simple y rápido, y no requiere de ningún post-procesado de los i-Vectors. En el segundo sistema, se introdujo el uso de información prosódica y formántica en un sistema de LID basado en i-Vectors. La precisión de éste estaba por debajo de la del sistema acústico. Sin embargo, los dos sistemas son complementarios, y se obtuvo hasta un 20% de mejora con la fusión de los dos respecto al sistema acústico solo. Tras los buenos resultados obtenidos para LID, y dado que, teóricamente, los i-Vectors capturan toda la información presente en la señal, decidimos usarlos para la evaluar de manera automática la inteligibilidad en el habla de personas con disartria. Los logopedas están muy interesados en esta tecnología porque permitiría evaluar a sus pacientes de una manera objetiva y consistente. En este caso, los i-Vectors se obtuvieron a partir de información espectral a corto plazo de la señal, y la inteligibilidad se calculó a partir de los i-Vectors obtenidos para un conjunto de palabras dichas por el locutor evaluado. Comprobamos que los resultados eran mucho mejores si en el entrenamiento del sistema se incorporaban datos de la persona que iba a ser evaluada. No obstante, esta limitación podría aliviarse utilizando una mayor cantidad de datos para entrenar el sistema.In this Thesis, we investigated how to effciently apply subspace Gaussian mixture modeling techniques onto two speech technology problems, namely automatic spoken language identification (LID) and automatic intelligibility assessment of dysarthric speech. One of the most important of such techniques in this Thesis was joint factor analysis (JFA). JFA is essentially a Gaussian mixture model where the mean of the components is expressed as a sum of low-dimension factors that represent different contributions to the speech signal. This factorization makes it possible to compensate for undesired sources of variability, like the channel. JFA was investigated as final classiffer and as feature extractor. In the latter approach, a single subspace including all sources of variability is trained, and points in this subspace are known as i-Vectors. Thus, one i-Vector is defined as a low-dimension representation of a single utterance, and they are a very powerful feature for different machine learning problems. We have investigated two different LID systems according to the type of features extracted from speech. First, we extracted acoustic features representing short-time spectral information. In this case, we observed relative improvements with i-Vectors with respect to JFA of up to 50%. We realized that the channel subspace in a JFA model also contains language information whereas i-Vectors do not discard any language information, and moreover, they help to reduce mismatches between training and testing data. For classification, we modeled the i-Vectors of each language with a Gaussian distribution with covariance matrix shared among languages. This method is simple and fast, and it worked well without any post-processing. Second, we introduced the use of prosodic and formant information with the i-Vectors system. The performance was below the acoustic system but both were found to be complementary and we obtained up to a 20% relative improvement with the fusion with respect to the acoustic system alone. Given the success in LID and the fact that i-Vectors capture all the information that is present in the data, we decided to use i-Vectors for other tasks, specifically, the assessment of speech intelligibility in speakers with different types of dysarthria. Speech therapists are very interested in this technology because it would allow them to objectively and consistently rate the intelligibility of their patients. In this case, the input features were extracted from short-term spectral information, and the intelligibility was assessed from the i-Vectors calculated from a set of words uttered by the tested speaker. We found that the performance was clearly much better if we had available data for training of the person that would use the application. We think that this limitation could be relaxed if we had larger databases for training. However, the recording process is not easy for people with disabilities, and it is difficult to obtain large datasets of dysarthric speakers open to the research community. Finally, the same system architecture for intelligibility assessment based on i-Vectors was used for predicting the accuracy that an automatic speech recognizer (ASR) system would obtain with dysarthric speakers. The only difference between both was the ground truth label set used for training. Predicting the performance response of an ASR system would increase the confidence of speech therapists in these systems and would diminish health related costs. The results were not as satisfactory as in the previous case, probably because an ASR is a complex system whose accuracy can be very difficult to be predicted only with acoustic information. Nonetheless, we think that we opened a door to an interesting research direction for the two problems

    Diseño e implementación de un sistema de detección de patologías en la voz utilizando aprendizaje automático.

    Get PDF
    Este trabajo de fin de Grado aborda la problemática del uso de técnicas de aprendizaje automático en tareas con pocos recursos de datos como es la detección de patologías. El principal objetivo del proyecto es diseñar e implementar un sistema que sea capaz de detectar la presencia de patologías en la voz utilizando técnicas avanzadas de aprendizaje automático. Se han utilizado dos bases de datos diferentes. Una, la más pequeña (VOICED), con 208 voces en total, divididas en 73 sanas y 135 patológicas. La otra base de datos (Saarbrücker), la más grande, tiene más de 2000 voces, divididas por 687 sanas y 1356 patológicas. De las dos bases comentadas en el párrafo anterior, se han extraído una serie de parámetros para poder implementar el sistema de detección de patologías: parámetros frecuenciales como los coeficientes MFCC (Mel Frequency Cepstrum Coefficients), parámetros glotales, parámetros de entonación y diversos parámetros de audio con un conjunto de herramientas de código abierto llamadas OpenSMILE. A partir de los parámetros comentados, hacemos uso de redes neuronales, modelos de mezcla gaussianas (GMM) y un clasificador SVM (Support Vector Machine) para llevar a cabo el aprendizaje automático. He de recalcar que, para poder reducir la dimensionalidad de diversos vectores de entrada a estos clasificadores, se usa una técnica basada en supervectores, donde se recoge la misma información, pero de forma más compacta para una mayor eficiencia. Para finalizar veremos ciertos resultados de varias pruebas realizadas con los <brclasificadores anteriores, donde se podrá ver que, con la ayuda de los supervectores, llegamos a aumentar el rendimiento de los clasificadores. Hay que destacar que con los parámetros obtenidos con el conjunto de herramientas de OpenSMILE se obtiene una gran eficiencia con los tres tipos de clasificadores.<br /

    Sistemas de alteración de la voz para falsear la identidad en sistemas de verificación de locutor

    Get PDF
    En este trabajo se exploran diferentes técnicas para modificar la información sobre la identidad del locutor de señales grabadas de voz. Aplicando el modelo excitación-filtro para el proceso de producción del habla, el objetivo es modificar la información de la señal de excitación y del tracto vocal por separado. Para valorar las trasformaciones realizadas se ha usado un sistema de verificación de locutor del estado del arte. Usando las trasformaciones propuestas se simulará un ataque al verificador donde se tratará de modificar u ocultar la identidad de un locutor

    Simulación de voces a través de un conversor texto-voz basado en modelos ocultos de Markov

    Get PDF
    Una parte importante de los sistemas de inteligencia ambiental la constituye el interfaz hombre-máquina, y dentro de este la síntesis de voz. La síntesis de voz consiste en la producción artificial de voz humana. Los principales retos de los conversores texto-voz son la producción de una voz artificial inteligible y natural, la completa automatización del proceso y que el texto necesario para la síntesis no provenga de una modificación del lenguaje original. A lo largo de este proyecto se ha puesto en marcha un sistema completo de conversión texto-voz de última generación basado en la síntesis de voz por modelos ocultos de Markov. Para llevarlo a cabo se han empleado algoritmos de adaptación de modelos acústicos, concretamente Maximum A Posteriori y Maximum Likelihood Linear Regression. Estos algoritmos permiten obtener una voz sintetizada a partir de pocas muestras de voz y no fonéticamente balanceadas del locutor deseado, pues utilizan como base otros registros que sí están fonéticamente balanceados entrenados previamente para la síntesis. Para realizar este proceso de conversión texto-voz se ha elaborado una base de datos, tanto de un locutor genérico como del locutor a adaptar, y su representación escrita. Se ha realizado un proceso de entrenamiento, consistente en la elaboración de los modelos acústicos empleados en la síntesis, aplicando distintos algoritmos para el cálculo de los modelos. Finalmente se han aplicado los algoritmos adaptativos descritos anteriormente. Una vez obtenidos los modelos acústicos se ha procedido a generar voz artificial siguiendo el modelo digital de producción del habla, excitación más filtro. El resultado del proceso es una voz artificial que busca asemejarse a la voz original, semejanza que se ha evaluado mediante programación dinámica. Por último, se ha elaborado una aplicación web que, sirviéndose del sistema de síntesis elaborado, servirá para crear un banco de voces de los usuarios que la empleen. Human-Machine Interface is an important part of the Ambient Intelligence Systems, and in particular the Text-to-Speech (TTS) systems. TTS consists of an artificial human voice production. The aims of TTS systems are: the production of a synthesized intelligible and natural voice, and the complete automation of the process. Moreover the text to synthesize doesn’t come from a change of the original language. During this project, a last generation complete TTS system based on Hidden Markov Models has been developed. In order to perform it, adaptation algorithms of acoustic models have been used, specifically Maximum A Posteriori and Maximum Likelihood Linear Regression. These algorithms allow us to obtain an artificial voice from a few not phonetically balanced voice samples of the desired speaker, because phonetically balanced base voice is used. For this TTS conversion process, a database from a generic speaker and the desired speaker has been produced. A training process, which consists of developing acoustic models, by applying different algorithms, has been performed. Finally, the adaptive algorithms described before have been applied. Once the acoustic models have been obtained, an artificial voice has been generated using the digital model of voice production. The result of this process is an artificial voice, which tries to be as similar as possible to the original voice. This similarity has been evaluated by a dynamic programming algorithm. Finally, a web application has been developed to create a voice bank

    Medidas acústicas en centros escolares con alumnos normoyentes y con discapacidades auditivas

    Get PDF
    El presente trabajo consiste en la realización de un estudio acústico de dos aulas pertenecientes al centro escolar Eliseo-Godoy de Zaragoza en el que conviven alumnos normooyentes con alumnos que presentan diferentes grados de discapacidad auditiva. La razón de la existencia de problemas acústicos en las aulas, no es una falta de conocimiento sobre cómo solucionar el problema, sino principalmente una falta de sensibilidad de los profesionales involucrados, tanto en el campo de la enseñanza como en el diseño de aulas, para resolver el problema. Unas condiciones inadecuadas de las aulas pueden tener graves consecuencias para alumnos y profesores. Agotamiento, estrés, patologías de la voz etc. De la misma forma, en los alumnos, la contaminación acústica perjudica su rendimiento escolar ya que dificulta los procesos de atención y aprendizaje. Presentaremos esta problemática caracterizando por medio de mediciones acústicas las variables más relevantes dentro de salas destinadas al habla: ruido de fondo y tiempo de reverberación. Para posteriormente realizar un análisis de la inteligibilidad de la palabra, el parámetro que determina realmente la calidad acústica de la sala basándonos en distintos métodos matemáticos. El propósito es realizar un pronóstico de la percepción del habla por los alumnos para palabras contextualizadas o no, y con distintos grados de dificultad. Discutiremos si los resultados respetan la normativa vigente, así como las recomendaciones de diferentes autores. Otro punto a tratar será si dichos resultados, suficientes en ciertos casos para los alumnos normoyentes, también lo son para aquellos alumnos con deficiencias auditivas que utilizan audífonos y/o implantes cocleares y sistemas FM

    Análisis y Detección de Edema de Reinke mediante Procesado de Señal y Aprendizaje Automático

    Get PDF
    Esta memoria describe el desarrollo de un sistema de análisis y detección de la disfonía conocida como Edema de Reinke a través de técnicas de procesado digital de señal y algoritmos de aprendizaje automático tales como las Redes Neuronales.Además, se comentarán los estudios y desarrollos similares realizados anteriormente en los que me he basado y de los que he aprendido para llevar a cabo mi trabajo. La intención de este trabajo es la de crear una base sobre la que construir un proyecto de mayor escala centrado en la detección de múltiples enfermedades que afectan a la voz mediante métodos no invasivos, acompañado de la creación de una base de datos de gran escala, en la que se incluyan grabaciones de voz de pacientes con afecciones vocales tanto antes como después de la operación o tratamiento necesario y encuestas sobre hábitos de estos pacientes. Este proyecto comenzó hace unos meses con el nombre de THALENTO (Tecnologías del HAbla y el Lenguaje para la EvaluacióN de Transtornos de la cOmunicación) pero fue interrumpido temporalmente por el COVID-19 por lo que el estudio estadístico de ciertos parámetros vocales antes y después del tratamiento han sido realizados solamente sobre 3 sujetos, por lo que constituye una mínima parte del trabajo. La carga principal del trabajo se centra en el sistema de detección del edema de Reinke en las cuerdas vocales mediante algoritmos de aprendizaje automático, cuyo desarrollo consta de los siguientes pasos: La extracción de numerosos parámetros utilizados habitualmente para estudios sobre afecciones de la voz, su correcta organización, etiquetado y almacenaje separándolos en distintos sets de datos; y el diseño de varios modelos de redes neuronales, uno específico para cada grupo de datos. De esta manera podremos analizar que grupos de datos contienen una mayor cantidad de información y son más relevantes en este aspecto y así poder diseñar en un futuro sistemas más eficientes que necesiten menos información para obtener los mismos resultados.Finalmente, se llevará a cabo un estudio de la eficiencia de los diferentes sistemas de clasificación para analizar que algoritmos se adaptan mejor a los datos que tenemos y por qué, y para comprobar finalmente si es posible tener porcentajes de acierto suficiente como para considerar el sistema lo suficientemente útil como para usarse clínicamente.<br /

    Análisis automático de la señal de voz para el diagnóstico clínico y la valoración de trastornos en el habla

    Get PDF
    La necesidad del ser humano de relacionarse con el entorno que le rodea hace de la comunicación hablada una habilidad prácticamente imprescindible. Cualquier perturbación en la capacidad del habla puede acarrear efectos negativos en el bienestar de una persona. Ante esta circunstancia, un diagnóstico temprano puede mejorar sustancialmente la vida del paciente. Una herramienta informática que ofrezca unas guías totalmente objetivas sobre los posibles trastornos en el habla que presente una persona, puede ayudar significativamente a los profesionales que se dedican a este campo. Este proyecto se estructura en las dos partes que indica el título. Por un lado, el análisis clínico se encarga de extraer una serie de parámetros de la señal de voz, que aportan información del estado de la voz en distintos ámbitos. Se analiza cómo evoluciona la amplitud de la señal, si presenta saltos; es decir, si el paciente es capaz de emitir una vocal durante unos segundos de forma continua. También se analiza el ruido presente de distintas formas: relación de los harmónicos frente a ruido, energía glotal de ruido, etc. La segunda parte, haciendo uso de redes neuronales, valora si los datos extraídos de la señal de voz pueden asociarse a una patología o patologías concretas o por el contrario no hay apreciación de patologías en la voz. En concreto, se analiza un total de 71 patologías extraídas de la base de datos Saarbrüecken Voice Database. Además de voces patológicas, la base de datos presenta también voces de personas sanas. Aunque la base de datos provee grabaciones de las vocales /a/, /i/ y /u/, solo se han utilizado las relativas a la vocal /a/. Finalmente, el análisis automático de las grabaciones de la base de datos y su posterior procesado con la red neuronal, ofrece una probabilidad de detección de patología en torno al 72%. Esta probabilidad sube hasta el 76-77% en caso de intentar detectar menor número de patologías, ya que en la muestra inicial hay patologías con escasa representación

    Desarrollo de un banco de voces para la personalización de sistemas de síntesis de voz

    Get PDF
    En este trabajo de fin de grado se ha creado la infraestructura necesaria para construir un banco de voces para poder personalizar sistemas de síntesis de voz para pacientes con enfermedades degenerativas que en un futuro vayan a perder la capacidad del habla.También se aborda el problema de la perdida de habla y el uso de la síntesis de voz personalizada como sistema de comunicación alternativo.<br /

    Sincronización de textos asociados a archivos audiovisuales

    Get PDF
    El tema principal es la sincronización de subtítulos. Los subtítulos deben estar formados por el mismo contenido y orden del texto original, que se corresponden con las transcripciones del archivo audiovisual que se desea sincronizar. El fin de este TFG es la sincronización de los subtítulos de la manera más automática posible. La sincronización se realiza utilizando un sistema de reconocimiento de voz controlado por un modelo de lenguaje (gramática) construido a partir de los textos a sincronizar.En este trabajo se evalúa el uso de dos tipos de gramáticas en un primer intento de reconocimiento, estocástica y basada en estados finitos, que permiten cierta libertad en la formación de frases y como consecuencia, permiten al reconocedor la sincronización texto-voz de una manera parcialmente libre. A continuación, se realiza una alineación del texto referencia con la hipótesis aportada por el reconocedor. Esta alineación de palabras permite determinar los fragmentos de texto y audio erróneamente detectados. Obtenidos unos puntos de anclaje, zonas correctamente detectadas, se trata de forzar estas zonas conflictivas a través de una gramática forzada. Se analizan las distintas gramáticas y se decide el método que ofrece mejores resultados. Se ha analizado la relación de los resultados con las calidades acústicas de los distintos programas a disposición, lo que se traduce en una mayor o menor dificultad de sincronización. Por último, se muestran las conclusiones de este TFG.<br /
    corecore